Slot Attention
#wip
https://scrapbox.io/files/65093fc7981ffc001cf5ed44.png
feature mapとpositional encodingを入力として、入力のkeyに対応するslotを出力している?
Slot = K個の出力ベクトルセットであり、各ベクトルは、入力中のオブジェクトやエンティティを記述できる。
学習(iteration、重みの更新)の度に、Slotは入力特徴の特定の部分にbindされる。
each slotの最終として、unsupervised opject discoveryや教師ありset predictionに使用することが可能である。
入力を、$ \text{inputs}\in\mathbb{R}^{N\times D_{\text{inputs}}}とし、出力は$ Kこの$ D_{\text{slots}}次元となる。(batchはomit)
CNNの出力のように、可視性かつオブジェクト単位での知覚ができると望ましい。
https://scrapbox.io/files/650950c9b890a8001cc33939.png
オブジェクト単位でのattention mapを得ることが可能?